Motivated by the goal of endowing robots with a means for focusing attention in order to operate reliably in complex, uncertain, and time-varying environments, we consider how a robot can (i) determine which portions of its environment to pay attention to at any given point in time, (ii) infer changes in context (e.g., task or environment dynamics), and (iii) switch its attention accordingly. In this work, we tackle these questions by modeling context switches in a time-varying Markov decision process (MDP) framework. We utilize the theory of bisimulation-based state abstractions in order to synthesize mechanisms for paying attention to context-relevant information. We then present an algorithm based on Bayesian inference for detecting changes in the robot's context (task or environment dynamics) as it operates online, and use this to trigger switches between different abstraction-based attention mechanisms. Our approach is demonstrated on two examples: (i) an illustrative discrete-state tracking problem, and (ii) a continuous-state tracking problem implemented on a quadrupedal hardware platform. These examples demonstrate the ability of our approach to detect context switches online and robustly ignore task-irrelevant distractors by paying attention to context-relevant information.
translated by 谷歌翻译
强大而广义的工具操作需要了解不同工具的属性和提供的功能。我们研究有关工具的语言信息(例如,其几何形状,常用用途)是否可以帮助控制策略更快地适应给定任务的新工具。我们获得了自然语言中各种工具的各种描述,并使用预训练的语言模型来生成其功能表示。然后,我们执行语言条件的元学习,以学习可以有效地适应新工具的政策。我们的结果表明,将语言信息和元学习结合起来可以显着加速工具在几个操纵任务中的学习,包括推动,举重,清扫和锤击。
translated by 谷歌翻译
我们的动机是将一个机器人任务相对于另一个机器人任务的复杂性进行比较的问题。为此,我们定义了一个简化的概念,该概念正式为以下直觉形式化:任务1减少到任务2,如果我们可以有效地将解决任务2的任何策略转换为解决任务的策略1.我们进一步定义了相对量度的定量度量给定机器人任意两个任务之间的复杂性。我们证明了我们还原概念(例如反射性,传递性和反对称性)和相对复杂性度量(例如非负和单调性)的有用特性。此外,我们提出了用于估计相对复杂度度量的实用算法。我们说明了使用(i)示例可以分析降低的示例进行比较机器人任务的框架,以及(ii)强化学习示例,其中提议的算法可以估计任务之间的相对复杂性。
translated by 谷歌翻译
安全是自主系统的关键组成部分,仍然是现实世界中要使用的基于学习的政策的挑战。特别是,由于不安全的行为,使用强化学习学习的政策通常无法推广到新的环境。在本文中,我们提出了SIM到LAB到实验室,以弥合现实差距,并提供概率保证的安全意见政策分配。为了提高安全性,我们采用双重政策设置,其中通过累积任务奖励对绩效政策进行培训,并通过根据汉密尔顿 - 雅各布(Hamilton-Jacobi)(HJ)达到可达性分析来培训备用(安全)政策。在SIM到LAB转移中,我们采用监督控制方案来掩盖探索过程中不安全的行动;在实验室到实验室的转移中,我们利用大约正确的(PAC) - 贝斯框架来提供有关在看不见环境中政策的预期性能和安全性的下限。此外,从HJ可达性分析继承,界限说明了每个环境中最坏情况安全性的期望。我们从经验上研究了两种类型的室内环境中的自我视频导航框架,具有不同程度的光真实性。我们还通过具有四足机器人的真实室内空间中的硬件实验来证明强大的概括性能。有关补充材料,请参见https://sites.google.com/princeton.edu/sim-to-lab-to-real。
translated by 谷歌翻译
我们的激励是以富裕的感觉输入(例如,愿景)的机器人系统的学习政策的问题,以便我们在培训期间保证概念的环境概括。我们提供了一个框架,用于通过利用现实世界环境的有限数据集结合(可能不准确)的环境的生成模型来提供这种概括保证。我们的方法背后的关键思想是利用生成模型,以便在策略之前隐式指定。通过最小化通过可能大致正确(PAC)泛化理论的新颖环境中预期成本的上限,使用环境的实际数据集更新。我们在两个模拟系统上展示了具有非线性/混合动态和富有的传感方式的两种模拟系统:(i)用板载视觉传感器的四轮车导航,并使用深度传感器抓住物体。与现有工作的比较展示了我们利用生成模型获得更强的泛化担保的能力。我们还提供了用于验证我们掌握任务的界限的硬件实验。
translated by 谷歌翻译
本文提出了一种学习议案人的方法,这些规划人员伴随着概率的成功保障在均可允许的集团内的机器人动态的任何干扰均匀。我们通过从泛化理论和强大的控制中汇集工具来实现这一目标。首先,我们策划一个运动原语库,其中每个原始的鲁棒性的特征在于前向可达集合的过度近似,即“漏斗”。然后,我们可能大致优化(PAC)--Bayes泛化界限,用于培训我们的计划者,以撰写这些原语,使整个漏斗尊重问题规范。我们展示了我们在两个模拟示例中提供了强担保的方法的能力:(i)在具有多辆车的五车道公路上的外部干扰下的自主车辆导航,(ii)在障碍场上导航无人机的导航风扰动的存在。
translated by 谷歌翻译
我们的目标是培训概括到看不见的环境的控制政策。灵感来自分布稳健的优化(DRO)框架,我们提出了通过对抗的环境的拖拉 - 分布鲁棒政策学习 - 通过产生对抗性环境来迭代提高对现实分布班次的鲁棒性。关键的想法是为潜在变量捕获环境中成本预测和现实变化的环境来学习生成模型。我们通过在潜在空间上通过梯度上升产生现实的对抗性环境,在环境的经验分布周围来对Wasserstein球进行DRO。我们展示了强大的分发(OOD)泛化在仿真中(i)用板载视觉摆动摆动柱子和(ii)掌握现实的3D对象。与域随机化相比,掌握硬件实验表明更好的SIM2REAL性能。
translated by 谷歌翻译
我们的目标是执行分销(OOD)检测,即,检测机器人在从不同分布的环境中运行而不是用于训练机器人的环境。我们可能大致正确(PAC)--Bayes理论,以便在培训分布上培训一项保证性能的保证的政策。我们对OOD检测的关键思想依赖于以下直觉:违反测试环境的性能,提供了机器人运营的证据。我们通过基于p值和浓度不平等来使其通过统计技术来形式化。由此产生的方法(i)提供了保证的置信信心界限,包括探测器的假正负率和(ii)的误报和假负率的界限仅是任务驱动和敏感,仅适用于影响机器人性能的变化。我们在使用具有不熟悉的形状或姿势的对象以及在不熟悉的环境(包括风扰动和不同的障碍密度)中使用具有不熟悉的形状或姿势的对象和姿势的无人驾驶障碍物的仿真任务的模拟和硬件中的方法。我们的例子表明我们可以在少数季度试验中执行任务驱动的OOD检测。与基线的比较也展示了我们的方法的优势,以提供统计保证并对任务 - 无关分配转变不敏感。
translated by 谷歌翻译
We demonstrate a Physics-informed Neural Network (PINN) based model for real-time health monitoring of a heat exchanger, that plays a critical role in improving energy efficiency of thermal power plants. A hypernetwork based approach is used to enable the domain-decomposed PINN learn the thermal behavior of the heat exchanger in response to dynamic boundary conditions, eliminating the need to re-train. As a result, we achieve orders of magnitude reduction in inference time in comparison to existing PINNs, while maintaining the accuracy on par with the physics-based simulations. This makes the approach very attractive for predictive maintenance of the heat exchanger in digital twin environments.
translated by 谷歌翻译
Deep Learning and Machine Learning based models have become extremely popular in text processing and information retrieval. However, the non-linear structures present inside the networks make these models largely inscrutable. A significant body of research has focused on increasing the transparency of these models. This article provides a broad overview of research on the explainability and interpretability of natural language processing and information retrieval methods. More specifically, we survey approaches that have been applied to explain word embeddings, sequence modeling, attention modules, transformers, BERT, and document ranking. The concluding section suggests some possible directions for future research on this topic.
translated by 谷歌翻译